英伟达的下一代Blackwell AI芯片安装在高容量服务器机架时面临严重的过热问题。这些问题已导致设计改变和延误,并引发谷歌、Meta和微软等客户担忧是否能够及时部署Blackwell服务器。
知情人士透露,英伟达的Blackwell GPU在装有72个芯片的服务器中使用时会过热。这些设备预计每个机架功耗高达120kW。这些问题迫使英伟达多次重新评估其服务器机架的设计,因为过热会限制GPU性能并存在组件损坏的风险。客户们担心这些挫折可能会阻碍他们在数据中心部署新芯片的时间表。
据报道,英伟达已经指示其供应商对机架进行多次设计更改以解决过热问题。该公司与其供应商和合作伙伴紧密合作,开发工程修订版以改善服务器冷却。虽然这些调整对于如此大规模的技术发布是标准做法,但它们仍然增加了延误,进一步推迟了预期的发货日期。
据第一财经报道,作为对延误和过热问题的回应,英伟达发言人表示,“我们正在与领先的云服务提供商合作,将其作为我们工程团队和流程中不可或缺的一部分。工程迭代是正常且符合预期的。将GB200这一迄今为止最先进的系统集成到各种数据中心环境中,需要与我们的客户共同设计。”英伟达还表示,“目前客户正在抢占GB200系统的市场先机”。
此前,英伟达曾因芯片的良率设计缺陷而不得不推迟Blackwell的生产。英伟达的Blackwell B100和B200 GPU使用台积电CoWoS-L封装技术连接它们的两个芯片。该设计包括一个带有LSI(局部硅互连 )桥的RDL中介层,支持高达10TB/s的数据传输速度。这些LSI桥的精确定位对于该技术按预期运行至关重要。然而,GPU芯片、LSI桥、RDL中介层和主板基板的热膨胀特性的不匹配导致了翘曲和系统故障。为了解决该问题,英伟达修改了GPU硅的顶层金属层和凸块结构,以提高生产可靠性。
因此,最终修订的英伟达Blackwell GPU在10月下旬才开始大规模生产,这意味着英伟达将能够从明年1月下旬开始发货这些芯片。
英伟达的客户,包括谷歌、Meta和微软等科技巨头,使用英伟达GPU训练他们最强大的大语言模型。Blackwell AI GPU的延误自然会影响到英伟达客户的计划和产品。(校对/张杰)